Постановка задачи

Имеем два набора данных: x_pb и x_nup, со свойствами композитов. Объединение необходимо произвести по типу INNER: ETL = получение, очистка, совмещение данных. Необходимо:

  1. Провести разведочный анализ предложенных данных. Необходимо нарисовать гистограммы распределения каждой из переменной, диаграммы ящика с усами, попарные графики рассеяния точек. Необходимо также для каждой колонке получить среднее, медианное значение, провести анализ и исключение выбросов, проверить наличие пропусков.
  2. Провести предобработку данных (удаление шумов, нормализация и т.д.).
  3. Обучить нескольких моделей для прогноза модуля упругости при растяжении и прочности при растяжении. При построении модели необходимо 30% данных оставить на тестирование модели, на остальных происходит обучение моделей. При построении моделей провести поиск гиперпараметров модели с помощью поиска по сетке с перекрестной проверкой, количество блоков равно 10.
  4. Написать нейронную сеть, которая будет рекомендовать соотношение матрица-наполнитель.
  5. Разработать приложение с графическим интерфейсом или интерфейсом командной строки, которое будет выдавать прогноз, полученный в задании 4 или 5.
  6. Оценить точность модели на тренировочном и тестовом датасете.
  7. Создать репозиторий в GitHub / GitLab и разместить там код исследования. Оформить файл README.

Подключение библиотек

Загрузка данных

Разведочный анализ данных

Проверка наличия пропусков в данных

Вывод: пропуски данных отсутствуют

Кодируем угол нашивки в LabelEncoder

Квартили, среднее, медианное значение для параметров

Попарные графики рассеяния точек

Вывод: данные не имеют четко выраженной зависимости. Регрессионная зависимость слабо выражена. Корреляция слабая. Возможно, здесь сложная нелинейная зависимость или засимость комбинации признаков.

Проверка корреляции признаков

Вывод: корреляция признаков близка к 0, зависимость не линейная.

Гистограммы:

Вывод: данные распределены дискретно по параметру "Угол нашивки". Распределение данных по остальным параметрам близко к нормальному распределению.

Диаграмма "ящик с усами"

Вывод: имеются выбросы данных

Предобработка данных

Исключение малоинформативных признаков

Вывод: малоинформативные признаки отсутствуют.

Исключение выбросов на основе межквартильного расстояния

Так же, попробуем заменить выбросы медианным значением

Нормализация данных

Нормализованный датасет с удаленными выбросами

Нормализованный датасет с медианными значениями вместо выбросов

Повторяем диаграмму ящик с усами

Повторяем график распределения

Подготовка моделей

Создание

Разделение на тренировочную и тестовую части

Создание модели, выдающей среднее значение для сравнения

Обучение моделей

Прогноз модуля упругости при растяжении

Linear Regressor

Сравнение с результатом модели, выдающей среднее значение целевой переменной из тестовой выборки

Decision Tree Regressor

Random Forest Regressor

Gradient Boosting Regressor

Сравнение MSE:

Прогноз прочности при растяжении

Linear Regressor

Сравнение с результатом модели, выдающей среднее значение целевой переменной из тестовой выборки

Decision Tree Regressor

Random Forest Regressor

Gradient Boosting Regressor

Сравнение MSE:

Прогноз соотношения матрица-наполнитель

График рассеяния. В идеальном случае он должен быть похож на прямую линию

Попробуем эту же нейросеть на выборке с медианными значениями вместо выбросов